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Abstract 

Apparatuses, systems, and a method provide for a visual display of speech, such as the visual display of a received 
audio signal in telecommunications, especially useful for the hearing impaired. The preferred apparatus includes a 
network interface that is coupleable to a first communication channel to receive an audio signal; a radio frequency 
(RF) modulator to convert a baseband output video signal to a RF output video signal and to transmit the RF output 
video signal on a second communication channel for video display; and a processor coupled to the network interface 
and to the RF modulator for running a set of program instructions to convert the received audio signal to a text 
representation of speech, and to further convert the text to the baseband output video signal. The RF output video 
signal, when displayed on a video display, provides the visual display of speech. The preferred apparatus mav also 
include a speech generation subsystem. 
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Prufungsantrag gem. § 44 PatG ist gestellt 

(Si) Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der Sprachkommunikation 
Erfindungsgemafce Vorrichtungen (101, 201, 301), Ver- 
fahren undSysteme (100, 200,300) sorgen fur die visuelle 
Wiedergabe von Sprache, beispielsweise die visuelle An- 
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zeige eines ernpfangenen Tonsignals bei der Telekom mu- 
nikation, die besonders fur Horbehinderte nutzlich sind. 
Das bevorzugteAusfuhrungsbeispiel der Vorrichtung um- 
fallt eine Netzschnittstell6 (110), wobei die Netzschnitt- 
stelle mit einem ersten Kommunikaticnskanal zum Emp- 
fangen eines ersten Tonsignals zur Bildung eines Ton- 
empfangssignals koppelbar ist, ferner einen Hochfre- 
quenzmodulator (270) zur Umwandlung eines Bildaus- 
gangssignals im Basisband in ein Hochfrequenz-Bildaus- 
gangssignal und zur Obermittlung des Hochfrequenz-. 
Btldausgangssignals auf einem zweiten Kommunikati- 
onskanal zur Bildwiedergabe, und eine mit der Netz- 
schnittstelle und dem Hochfrequenzmodulator gekoppal- 
te Prozessorengruppe (130), wobei die Prozessorengrup- 
pe (130) uber einen Satz Programmbefehle in der Weise 
ansteuerbar ist, daG ste das Tonempfangssignal in eine 
Sprachwiedergabe in Textform umwandelt und aufcer- 
dem die Textdarstellung gesprochener Sprache in ein 
Bildausgangssignal im Basisband umwandelt. Dabei bil- 
det das Hochfrequenz-Bildausgangssignal bei Darstel- 
lung auf einem Bildschirm (225) die visuelle Wiedergabe 
der gesprochenen Sprache. Das bevorzugte Ausfuh- 
rungsbeispiel kann des weiteren ein Teilsystem 
Spracherzeugung umfassen. 
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Beschreibung 

Gebiet der Erfindung 

Die vorliegende Erfindung beziehl sich ganz allgemein 
auf die Ton- und Bildkommunikauon und insbesondere auf 
eine Vorrichtung, ein Verfahren und ein System zur visuel- 
len Wiedergabe^von Sprache in der Kornmunikation. 

Stand der Technik 



Herkommliche Gerate und Verfahren zur visuellen Wie- 
dergabe gesprochener Sprache wie beispielsweise die soge- 
nannten TOD-Systeme fiir Horbehinderte bzw. Horgescha- 
digte setzen im typischen Fall sowohl spezielle Systeme als 
auch eine Eingabe des anzuzeigenden Materials fiir die visu- 
elle Wiedergabe durch den Benutzer voraus. Beispielsweise 
wird fur Telephongesprache oder Kommunikationssitzun- 
gen fiir den Horbehinderten ein spezieiles TDD-Systera fiir 
die visuelle Anzeige von Buchstaben, Wortem und Satzen 
vorausgesetzt, und dabei mussen alle Teilnehmer an der 
Kommunikationsverbindung ein solches speziell hierfur 
vorgesehenes System benutzen. AuBerdem muB jeder Teil- 
nehmer bei dem Telefongesprach bei Verwendung eines 
TDD-Systems jeden Buchstaben , jedes Wort und jeden Satz 
physikalisch auf einer Tastatur eingeben, damit diese Infor- 
mationen dann zur Anzeige auf einem TDD-Systern am ent- 
fernt liegenden Ende ubermittelt werden. 

Bei anderen konventionellen Systemen ist auBerdem be- 
sonders ein Eingreifen von Hand erforderlich, wobei das an- 
zuzeigende visuelle Material separat korperlich eingegeben 
werden muB. Beispielsweise ist es bei vielen Untertiteldien- 
sten fur geschlossene Benutzergruppen, wie sie auf vielen 
Fernsehkanalen zur Verfugung stehen, erforderlich, daB die 
horbaren gesprochenen Worter von einem Diensteanbieter 
ubersetzt und zur Ubertragung als Teil der Ton-/Bildsen- 
dung oder einer anderen Femsehsendung in das Untertitel- 
system fiir die geschlossene Benutzergruppe mittels Tastatur 
eingegeben werden. 

Diese konventionellen Systeme zur visuellen Anzeige ge- 
sprochener Sprache setzen im allgemeinen zweckbestirnmte 
Spezialsysteme sowohl vor Ort wie auch am entfemten 
Punkt der Verbindung voraus und erfordern einen erhebli- 
chen Umfang manueller Eingriffe fiir den Betrieb. Infolge- 
dessen sind derartige Systeme relativ kostspielig und 
schwierig zu bedienen. AuBerdem unterliegen Systeme die- 
ser Art Beschrankungen hinsichtlich ihrer Verfugbarkeit und 
Aufstellung; beispielsweise konnen diese TDD-Systeme auf 
Reisen nur mit Schwierigkeiten aufgestellt oder lokalisiert 
werden, so daB die Kornmunikation mit einer horbehinder- 
ten Person iiber das Telefon unmoglich wird. AuBerdem 
kann der Benutzer, der auf ein derartiges System angewie- 
sen ist, nicht mit einem anderen Teilnehmer kommunizie- 
ren, dem ein spezieiles System fiir diesen Zweck nicht zur 
Verfugung steht. 

Dementsprechend blieb Bedarf an einem solchen Gerat, 
Verfahren und System zur visuellen Sprachanzeige, bei de- 
nen spezielle Gerate und Systeme nicht an beiden Enden der 
Kommunikationsverbindung vorhanden sein mussen. Au- 
Berdem sollten ein Gerat und ein System dieser Art keinen 
erhebiichen Aufwand an manueller Betatigung fiir den Be- 
trieb erfordern, sie sollten vergleichsweise kcstengiinstig 
und auBerdem benutzerfreundlich sein. 



wiedergabe; 

Fig. 2 ist ein Blockschaltbild mit der Darstellung eines er- 
sten bevorzugten Ausfuhrungsbeispiels eines srfmdungsge- 
rnaBen Gerats und Systems zur visuellen Sprachwiedergabe; 

5 Fig. 3 zeigt ein Blockschaltbild zur Darstellung eines 
zweiten bevorzugten Ausfuhrungsbeispiels eines erfin- 
dungsgemaBen Gerats und Systems zur visuellen Sprach- 
wiedergabe; und 

Fig. 4 ist ein Ablaufdiagramm zur Veranschaulichung ei- 

lo nes erfindungsgemaBen Verfahrens zur visue'ilen Sprach- 
wiedergabe und Spracherzeugung. 



Ausfiihrliche Beschreibung der Erlindung 



Kurzbeschreibung der Zeichnung 



Fig. I zeigt ein Blockschaltbild zur Darstellung eines er 
findungsgeinaBen Gerats und Systems zur visuellen Sprach 



15 Wie vorstehend bereits angesprochen blieben verschie- 
dene Bediirfnisse fur MogUchkeiten zur visuellen Sprach- 
wiedergabe, beispielsweise unter anderem in einem Textfor- 
mat oder einem Untertitelformat, als Hilfsmittel fur Horbe- 
hinderte bestehen. Die erfindungsgemaBe Vorrichtung mit 
20 zugehorigem Verfahren und System baut auf den verwand- 
ten und damit zusammenhangenden Anmeldungen auf und 
sorgt fur die visuelle Wiedergabe gesprochener Sprache, 
ohne daB hierfur vor Ort und am entfemten Ende der Kom- 
munikationsverbindung hierzu spezielle Gerate und Sy- 
25 steme erforderlich sind. AuBerdem setzen auch die verschie- 
denen Ausfuhrungsbeispiele der Erfindung ebenfalls keiner- 
lei erhebliche BetaUgungseingriffe von Hand fur den Be- 
trieb voraus und sind dabei vergleichsweise kostengunstig 
und benutzerfreundlich. 
30 Die in den verschiedenen hiermit zusammenhangenden 
Anmeldungen beschriebenen Erfindungen beziehen sich so- 
wohl auf dieTelefonkonferenztechnik als auch auf audiovi- 
suelle Konferenztechnik und arbeiten mit einer Vorrichtung 
fur den Zugriff auf Video- bzw. Bildinforrnationen, welche 
35 uber einen Kommunikationskanal mit einem Telekommuni- 
kationsnelz gekoppelt werden kann. In der zweiten und dril- 
len hiermit zusammenhangenden Anmeldung bezieht sich 
das dort bevorzugte Ausfuhrungsbeispiel auf die Vorrich- 
tung fur den Zugriff auf Bildinforrnationen sowie fur audio- 
40 visuelle Konferenztechnik unter Heranziehung eines soge- 
nannten CACS-Protokolls (Cable ACcess System; Kabelzu- 
gangssystem) zur Kornmunikation mit einer Hauptstation 
iiber ein koaxiales Hybrid-Koaxkabel, wobei die Primarsta- 
tion ihrerseits fur die AnschluBmoglichkeiten an ein Tele- 
45 komrnunikationsnetz und eine Infrastruktur fiir Kabelfern- 
sehdienste sorgt. Bei der hiermit zusammenhangenden vier- 
ten und fvinften Anmeldung sieht die Vorrichtung fiir den 
Zugriff auf Bildinforrnationen sowohl Telekonfererizmog- 
lichkeiten als auch Moglichkeiten.fur Audio-Mdeo-Konfe- 
50 renzen mit direkten festverdrahteten AnschluBmoglichkei- 
ten an ein Telekommunikationsnetz vor, wobei eine festver- 
kabelte Netzschnittstelle eingesetzt wird, die sich beispiels- 
weise fur den AnschluB an ein ISDN-Netz (Integrated Ser- 
vices Digital Network; digitales Netz mit inte'grierten Dien- 
55 sten) und/oder an ein PSTN-Netz (PubUc Switched Tele- 
phone Network; offenUiches'Telefonnetz mit Wahlsystem) 
eignet. . 

Bei den bevorzugten Ausfiihrungsbeispielen der hi'errml 
zusammenhangenden zweiten und vierten Anmeldung is;t 
60 die Moglichkeit fiir Videokonferenzen unter Verwendung. 
iibUcher oder allgemein bekannter Gerate und Vorrichtung 
gen vorgesehen, wie sie typischerweise in Raumen oder bei. 
Teilnehmerh zu finden sind, z.B. Telefone, Femseher und 
Videokameras (Video-Camcorder)'. Bei der hiermit zusam- 
65 menhangenden drilten und funften Anmeldung ist eine sol- 
che Moglichkeit zur Videokonferenz unter Verwendung ei- 
nes oder mehrerer Bildtelefongerate vorgesehen. Was aller- 
dings alien diesen hiermit zusammenhangenden Anmeldun- 
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gen gemeinsarn ist, ist die Verwendung einer physikalischen 
Schnittstelle (z. B. in Form eines Telefons oder einer Tasta- 
tur) fur die Auswahl und die Ansieuerung der verschiedenen 
Medieneinsatzgebiete, z.B. zur Auswahl eines nonnalen 
Telefonrnodus oder eines Videokonferenzmodus. Bei den 5 
bevorzugten Ausfiihrungsbeispiel en konnen ein oder meh- 
rere Telefone zur Eingabe verschiedener Steuersignale in 
eine Benutzerlonschnitts telle des Videozugriffsgerats einge- 
setzt werden, urn die jeweilige Betriebsan des Gerats fur 
den ZugrifFauf Bildinformationen anzuwahlen. Bei dern be- 10 
vorzugten Ausfiihrungsbeispiel wird beispielsweise mit der 
Eingabe einer vorgegebenen Abfolge (z. B. "**" der 
DTMF-Tone eines Telefons) gearbeitet, um einen Video- 
konferenzmodus anzuwahlen, wobei dann, wenn diese vor- 
gegebene Abfolge nicht eingegeben wurde, automatisch ein 15 
Telefonbetrieb in transparenter Weise gewahlt wird. 

Bei der hiermit zusammenhangenden sechsten Anmel- 
dung sind eine Vorrichtung und ein Verfahren zur Ansteue- 
rung mehrerer unterschiedlicher Multimedia- Anwendungen 
vorgesehen, neben Moglichkeiten fiir Videokonferenzen 20 
und Telefonbetrieb. Bei dem bevorzugten Ausfiihrungsbei- 
spiel der Erfindung gemaB dieser sechsten Anmeldung sorgt 
die Vorrichtung zur Multimedia-Ansteuerung fur die Kon- 
trolle iiber eine Vielzahl von Medienanwendungen, unter 
anderem Telefon, Videokonferenz, analoge und digitale VI- 25 
deotechnik sowie Signalabgabe iiber die Wechselstromlei- 
tungen (zur Ansteuerung und Uberwachung von Geraten im 
Raum oder beirn Teilnehmer, z. B. Heizung, Liiftung, Kli- 
rnaanlage, Beleuchtung, Sicherheitseinrichtungen und Un- 
terhaltungstechnik). Dariiber hinaus kann bei dem bevor- 30 
zugten Ausfiihrungsbeispiel der Mulumediasteuerung jedes 
angeschlossene Telefon zum Telefon fur mehrere Betriebs- 
arten werden, wobei es die physikalische Schnittstelle fur 
Telefonfunktionen und fur Multi media- Steu erf unktionen 
bildet. 35 

Auf diesen hiermit zusammenhangenden Anmeldungen 
bauen die erfindungsgernaBe Vorrichtung, das Verfahren 
und das System auf und sehen eine visueUe Wiedergabe ge- 
sprochener .Sprache vor, beispielsweise bei einem Sprachte- 
lefongesprach oder dern Audioteil einer audiovisuellen 40 
Konferenz. Die Kommunikation kann iiber jedes Telekom- 
munikationsnetz oder auch jedes andere Netz ablaufen, wo- 
bei am entfernten Punkt der Verbindung kein besonderes 
oder spezielles Gerat erforderlich ist. Wie irn folgenden 
noch ausfiihrlicher beschrieben ist, wird ein aus einem Netz 45 
ankommendes Tonsignal empfangen und in eine Darstel- 
lung in Textform umgewandelt, die dann in ein Bildsignal 
umgesetzt wird, das in jedes angeschlossene Fernsehgerat 
oder ein anderes Bildschirmgerat ubertragen wird, wo es der 
Benutzer betrachten kann, vorzugsweise im Untertitelfor- 50 
mat oder im Bildschirrnformat. Dieses Gerat zur visuellen 
Wiedergabe gesprochener Sprache kann auch ein Teilsystem 
zur Sprachgenerierung fur die Benutzer umfassen, die viel- 
leicht auch eine Sprachbehinderung haben. Das erfindungs- 
gemaBe Gerat zur visuellen Wiedergabe gesprochener Spra- 55 
che kann als Abwandlung der verschiedenen Bildzugriffsge- 
rate angesehen werden oder auch als Sonderfall bzw. spe- 
zieUe Medienanwendung des Multimediasteuergerats ge- 
maB den hiermit zusammenhangenden Anmeldungen gel- 
ten. Wie im folgenden noch ausfiihrlicher beschrieben ist, 60 
umfaflt die Vorrichtung zur visuellen Wiedergabe gespro-' 
chener Sprache viele derselben Bauelemente und Teilsy- 
steme der Bildzugriffsgerate und des Multimediasteuerge- 
rats, so daB hier hinsichtlich der entsprechenden ausfuhrli- 
chen Beschreibungen und der technischen Angaben zu den 65 
bevorzugten Bauelementen auf die hiermit zusammenhan- 
genden Anmeldungen verwiesen werden kann. 

Fig. 1 ist ein Blockschaltbiid mit der Darstellung eines er- 



findungsgemaBen Gerats 101 zur visuellen Wiedergabe ge- 
sprochener Sprache und eines erfindungsgemaBen Systems 
100 zur visuellen Sprachwiedergabe. Entsprechenri der Dar- 
stellung in Fig. 1 umfaBt das System 100 zur visuellen 
Sprachwiedergabe das Gerat 101 zur visuellen Sprachwie- 
dergabe, sowie mindesteris ein Bildschirmgerat 225 und 
mindestens eine physikalische Schnittstelle 155, beispiels- 
weise in Form eines Telefons 150, einer Tastatur 160, einer 
Maus 170 oder eines Rechners 175. Das Gerat 101 zur visu- 
ellen Sprachwiedergabe laBt sich iiber eine Netzschnittstelle 
110 an einen ersten Kommunikationskanal (bzw. einem 
Netzkommunikatibhskanal) 103 zur Kommunikauon mit ei- 
nem Netz 104 ankoppeln. Der erste bzw. Netz-kornmunika- 
tionskanal 103 wird hier auch als Netzkommunikauonska- 
nal 03 bezeichnet, um ihn von anderen Kommunikationska- 
nalen des Systems 100 zur visuellen Sprachwiedergabe zu 
unterscheiden, z.B. vom zweiten Kommunikationskanal 
227, der zur Kommunikation mit den verschiedenen Bild- 
schirmgeraten 225 verwendet wird, oder vom dritten Kom- 
munikationskanal 228, der zur Kommunikation mit der Ta- 
statur 160 oder den anderen physikalischen Schnittstellen 
155 verwendet wird. Der erste Kommunikationskanal 103 
kann fest verdrahtet sein, z. B. kann er aus einem oder meh- 
reren verdrillten Drahtpaaren bestehen, oder es kann sich 
dabei um ein Kabel handeln, z. B. ein hybrides Glasfaser- 
Koaxkabel, auch um eine schnurlose Verbindung wie sie 
beispielsweise bei Mobiltelefonen oder fdr andere Hochfre- 
quenz-Ubertragungen verwendet wird, oder auch um jedes 
andere geeignete Kommunikationsmedium. Das Netz 104 
kann, wie in der hiermit zusammenhangenden vierten und 
funften Anmeldung beschrieben, beispielsweise ein soge- 
nanntes PSTN-Netz (offentliches Telefonnetz mit Wahlbe- 
trieb) fur den normalen Telefonverkehr und analogen Daten- 
verkehr sein (diese Einsatzgebiete werden hier als POTS be- 
zeichnet; Plain Old Telephone Service, einfacher alter Tele- 
fondienst) oder ein sogenanntes ISDN-Netz fur die digitale 
Ubermitdung von Sprache und Daten, oder es kann sich da- 
bei um eine Kombination aus derartigen schon bestehenden 
oder kunfdgen Telekornmunikationsnetzen handeln. Bei 
solchen festverdrahteten Netzen wird der Netzkommunika- 
tionskahal 103 normalerweise iiber eine lokale digitale oder 
analoge (hier nicht dargestellte) Weiche an das Netz 104 an- 
gekoppelt. AuBerdem kann, wie in der hiermit zusammen- 
hangenden zweiten und dritten Anmeldung beschrieben, der 
Netzkommunikationskanal 103 bei Realisierung eines 
CACS-KommunikadonsprotokoUs iiber eine Primarstation 
an das Netz 104 angekoppelt werden, die unter anderem 
mindestens eine Netzschnittstelle bietet, die mit anderen 
oder zusatzlichen Protokbllen - z. B. den verschiedenen 
ISDN-Protokollen - arbeitet und auBerdem fur den An- 
schluB an eine Infrastruktur fur Kabelfemsehdienste 
(CATV-Dienste) sorgt 

Das in Fig. 1 dargestellte Gerat 101 zur visuellen Sprach- 
wiedergabe weist verschiedene Mcrkrnale oder Bauele- 
mente auf, die in den hiermit zusammenhangenden Anmel- 
dungen ausfuhrlich beschrieben werden, unter anderem die 
Netzschnittstelle 110, die Prozessorengruppe 130 (wobei 
verstanden wird, daB eine Prozessorengruppe auch nur einen. 
Prozessor aufweisen kann) und die Benutzerschniltstelle 
120. In den zugehdrigen Anmeldungen sind auBerdem de- 
taillierte Blockschaitbilder und technische Angaben zu den 
bevorzugten Bauelementen enthaltec. Je nach der jeweili- . 
gen Realisierungsform des Systems 100 zur visuellen 
Sprachwiedergabe, z. B. in festverdrahteter, verkabelter 
oder schnurloser Form, ist die Netzschnittstelle 110 des Ge- 
rats 101 zur visuellen Sprachwiedergabe unterschicdlich 
aufgebaut. Bei Kabeltechnik ist beispielsweise die Netz- 
schnittstelle 110 eine KabelneLzschnittstelle mil einem 
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CATV-Sende-Empfanger und einer ASIC-Schaltung fur 
Kcminunikationszwecke (anwendungsspezifische inie- 
grierte Schaltung), die verschiedene Funktionen erf u lit wie 
zum Beispiel jeweils die Hochfrequenzmodulation (HF- 
Modulation) und -Demodulation und die Kodierung und 
Dekodierung nach dem CACS-Protokoll, wie in der zugeho- 
rigen zweiten und dritten Anmeldung beschrieben ist. Bei 
schnurlosen Einsatzgebieten, z. B. gemaB der Beschreibung 
in der zugehorigen vierten und funften Anmeldung, umfaBt 
die Netzschnittstelle 110 eine Telefonschnittstelle (POTS- 
Schnittstelle fur den traditionellen Telefonverkehr) und/oder 
eine ISDN-Schnittstelle, die jeweils verschiedene Funktio- 
nen hat, z. B. jeweils die analoge Telefontechnik (und 
ebenso analoge Modemfunkuonen, z. B. nach den ITU-Pro- 
tokollen (International Telecommunications Union) V.34 
und V.34 2 ), neben der Realisierung verschiedener digitaler 
(ISDN-) Protokolle fur Sprach- und Datenuberrnittlung 
(z. B. Protokolle zur digitalisierten Datenverbindung nach 
ITU Q.921 LAPD und fur physikalische Layers (Interface- 
Protokolle) nach Q.910). GemaB den zugehorigen Anmel- 
dungen wird die Netzschnittstelle 110 zur Ubertragung und 
zum Empfang analoger oder digitaler Bild-. Ton- und ande- 
rer Inform auonen und Daten (die ganz allgemein hier als 
Daten bezeichnet werden) in jedem gegebenen Format, mit 
jedem Protokoll oder nach jedem Modulationsschema ein- 
gesetzt, die mit dem Netz 104 kompatibel sind, wobei auch 
jede beliebige Form des Netzanschlusses oder der Schaltun- 
gen Verwendung findet. Wenn beispielsweise liber den er- 
sten Kornmunikationskanal 103 der AnschluB an ein digita- 
ls Netz (z. B. ISDN-Netz) vorgesehen ist, ubermittelt und 
empfangt die Netzschnittstelle 110 Daten in Form eines 
Tonsignals fur den Telefonverkehr, oder als gemaB der 
ISDN-Protokollserie (z. B. Serie Q.x) kodierte und forma- 
tierte digitale Information. Bei AnschluB an ein herkommli- 
ches bzw. PSTN-Netz iiber den ersten Netzkommunikati- 
onskanal 103 ubermittelt und empfangt die Netzschnittstelle 
110 beispielsweise auch Daten wie Tonsignale, z. B. ein nor- 
males analoges Tonsignal in POTS-Technik. 

Aus Fig, 1 ist weiterhin ersichtlich, daB an die Netz- 
schnittstelle 110, an eine Benutzerschnitts telle 120 und an 
einen Hochfrequenz- bzw. HF-Modulator 270 eine Prozes- 
sorengruppe 130 angeschlossen ist. Die Netzschnittstelle 
110, die Benutzerschnittstelle 120 und der HF-Modulator 
270 sind im wesentlichen identisch mit den Gruppen ausge- 
legt, wie sie in den zugehorigen Anmeldungen beschrieben 
und ausfiihrlich dargestellt sind. Verschiedene Funktionen 
jeder dieser Systemkomponenten werden nachstehend au- 
Berdem noch ausfuhrlicher erlautert. Bei dem in Fig. 1 dar- 
gestellten Ausfuhrungsbeispiel weist die Vorrichtung 101 
zur visuellen Sprachwiedergabe beispielsweise zunachst 
eine Netzschnittstelle 110 auf, die sich zum Empfangen ei- 
nes ersten Tonsignals von einem Netz 104 an einen ersten 
Kornmunikationskanal 103 ankoppeln laBt woraufhin sie 
aus diesem Signal ein Tonempf angssignal bildet; zum ande- 
ren weist sie einen Hochfrequenzmodulator 270 auf, der ein 
Bildausgangssignal (aus der Prozessorengruppe 130) im Ba- 
sisband in ein Hochfrequenz-Bildausgangssignal umwan- 
delt und das Hochfrequenz-Bildausgangs signal zu einem 
zweiten Kornmunikationskanal 227 zur Videodarstellung 
ubertragt, z. B. iiber eines der Bildschirmgerate 225; und 
zum dritten umfaBt sie eine Prozessorengruppe 130, die an 
die Netzschnittstelle 110 und den Hochfrequenzmodulator 
270 angekoppelt ist und iiber einen Satz Programmbefehle 
in nachstehend noch erlauterter Weise so angesteuert wird, 
daB sie das empfangene Tonsignal in eine Textdarstellung 
der gesprochenen Sprache umsetzt und auBerdem die Texi- 
darstellung der Sprache in ein Bildausgangssignal im Basis- 
band umwandelt (das dann vom HF-Modulator 270 noch 



moduliert und dann iibertragen werden muB). Im folgenden 
wird auBerdem noch erlautert, daB die Vorrichtung zur visu- 
ellen Sprachwiedergabe vcrzugsweise die Benutzerschnitt- 
stelle 120 zur Eingabe von Steuersignalen umfaBt, die zur 
5 Ansteuerong verschiedener Betriebsarten - z. B. normaler 
Telefonbetrieb oder Modus mit visueller Sprachwiedergabe 
- verwendet werden. 

Die Benutzerschnittstelle 120 dient zum Empfangen ernes 
Steuersignals von aus einer Vielzahl von Steuersignalen, 
10 z. B. in Form einer Anforderung fur ein Telefongesprach, ei- 
ner Anforderung fur die visuelle Darstellung der gesproche- 
nen Sprache wahrend eines Telefongesprachs, oder ein An- 
ruf in einer Audio-/Video-Konferenz, einer Anforderung 
von Sprachgenerierung aus einem eingegebenen Text, und 
L5 weitere Steuersignale wie zum Beispiel Meldesignale zur 
Ankiandigung eines ankornmenden Anrufs oder von Anru- 
fen bei einer audiovisuellen Konferenz. Bei dem bevorzug- 
ten Ausfuhrungsbeispiel ist die Benutzerschnittstelle 120 in 
Form einer Benutzer-Tonschnittstelle 255 ausgefuhrt, wie 
20 sie in Fig. 2 und 3 und ausfiihrlich in den hiermit zusam- 
menhangenden Anmeldungen dargestellt ist. Der HF-Modu- 
lator 270 setzt ein Bildausgangssignal in ein Hochfrequenz- 
Bildausgangssignal urn, wie in den zugehorigen Anmeldun- 
gen beschrieben und dargestellt, und ubertragt dieses zum 
25 zweiten Kornmunikationskanal 227 und bringt es zur An- 
zeige auf den Bildschirmgeraten 225. Bei dem bevorzugten 
Ausfuhrungsbeispiel handelt es sich bei dem zweiten Korn- 
munikationskanal 227 urn ein Koaxkabel, wie es fur Kabel- 
femsehen vorgesehen ist und im Raum beim Benutzer bzw. 
30 Teilnehmer an einer oder mehreren Stellen verlegt ist. 

Die Prozessorengruppe 130 sorgt fur die Umsetzung des 
empfangenen Tonsignals (aus der Netzschnittstelle 110) in 
eine visuelle Darstellung der gesprochenen Sprache bzw. in 
deren Darstellung in Textform, die ihrerseits dann in die 
35 Form des Bildausgangssignals im Basisband umgesetzt wird 
(das vom HF-Modulator 270 noch moduliert und an die 
Bildschirmgerate 225 iibertragen werden muB. Die Prozes- 
sorengruppe 130 kann auch fur die Sprachgenerierung aus 
einem eingegebenen Text sorgen (wobei die Sprachsignale 
40 dann iiber die Netzschnittstelle 110 an das Netz 104 iiber- 
mittelt werden sollen). Wie in den zugehorigen Anmeldun- 
gen dargestellt und nachstehend noch ausfuhrlicher erlautert 
wird, kann die Prozessorengruppe 130 aus einer einzigen in- 
tegrierten Schaltung ("IC") bestehen oder eine Vielzahl inte- 
45 grierter Schaltungen bzw. anderer Bauelemente aufweisen, 
die miteinander verbunden bzw. zu Gruppen zusamrnenge- 
faBt sind, z. B. Mikroprozessoren, digitale Signalprozesso- 
ren, ASIC-Schaltungen, zugehorige Speicher (z. B. RAM- 
und ROM-Speicher) und weitere ICs und Baugruppen. In- 
50 folgedessen ist der hier verwendete Begriff "Prozessoren- 
gruppe" als gleichbedeutend mit einem einzelnen Prozessor 
oder mit einer Anordnung von Prozessoren, Mikroprozesso- 
ren, Steuerungen oder irgendwelchen anderen Gruppierun- 
gen integrierter Schaltungen zu verstehen, welche die nach- 
55 stehend noch naher beschriebenen Funktionen ausfuhren. 

Bei dem bevorzugten Ausfuhrungsbeispiel ist zum Beispiel 
' die Prozessorengruppe 130 gemaB Darstellung in Fig. 2 und 
3 als Mikroprozessor-Teilsystem 260 ausgefuhrt (wie sie 
auch in den zugehorigen Anmeldungen dargestellt wird), 
60 neben einem Teilsystem zur visuellen Sprachwiedergabe 
(300 bzw. 310) und. kann auBerdem ein Teilsystem zur 
Sprachgenerierung (320) umfasscn. 

Aus Fig. 1 ist weiterhin zu entnehmen, daB das Gerat 101 
zur visuellen Sprachwiedergabe iiber die Benutzerschnitt- 
65 stelle 120 an mindestens eine physikalische Schnittstelle 
155 gekoppelt ist, damit der Benutzer zur Eingabe eines 
oder rnehrerer Steuersignale und auch fur die Eingabe von 
Text zur Sprachgenerierung- physikalischen Zugang zu der 



DE 197 50 439 A I 



Vorrichtung zur visuellen Sprachwiedergabe hat. Die physi- 
kalischen Schnittstellen 155 urofassen im typischen Fall 
mindestens ein Telefon 150, eine Tastatur 160, eine Compu- 
tennaus 170 oder einen Rechner 175. Die Telefone 150 kon- 
nen auch als Bildtelefon ausgefuhrt sein. Sind TeJefone 150 
in das System geschaltet, so erfolgt die physikalische Ein- 
gabe der Vielzahl von Steuersignalen uber eine Teiefonta- 
statur in Form eines DTMF-Signals (Zweiton-Mehrrre- 
quenzsignal) oder Impulswahlsignals, wobei fur den norrna- 
ien Eingang und Ausgang der Tonsignale eine Sprechrnu- 
schel und ein Hbrerteil bei den verschiedenenTelefonen 150 
(bzw. Bildtelefonen) vorgesehen sind. Zusatzlich zu den Te- 
lefonen 150, oder auch anstelle derselben, konnen auch die 
Tastatur 160, die Maus 170, und/oder der Rechner 175 zur 
Eingabe der Vielzahl von Steuersignalen eingesetzt werden. 
Die Tastatur 160 bzw. der Rechner 175 dienen vorzugsweise 
fur die Eingabe eines Textes fur die Sprachgenerierung uber 
den driuen Kommunikationskanai 228 (auch wenn andere 
Eingabeverfahren wie beispielsweise das DTMF-Wahlver- 
fahren ebenfalls herangezogen werden konnten). Der dritte 
Kommunikationskanai 228 wird hier als Kanal mit direkter 
Verbindung zwischen den physikalischen Schnittstellen 155 
und der Prozessorengruppe 130 dargestellt, auch wenn an- 
dere Moglichkeiten der Verbindung zur Verfugung stehen; 
beispielsweise kann der dritte Kommunikationskanai 228 
auch vollig entfallen (Fig. 2), wobei dann die Eingabe der 
Steuersignale iiber eine Verbindung (z. B. Leitung 294 in 
Fig. 2) mit der Benutzerschnittstelle 120 oder eine Benut- 
zer-Tonschnittstelle 25 (statt mit der ProzessoreneruDDe 
130) erfolgt. 6 ^ 

Fig. 1 zeigt weiterhin, daB der HF-Modulator 270 ein 
Bildausgangssignal im Basisband von der Prozessoren- 
gruppe 130 - z. B. in Form eines kombinierten NTSC/PAL- 
Videosignals - in ein Hochfrequenz-Bildausgangssignal 
umsetzt, z. B. ein amplitudenmoduliertes Restseitenband- 
HF-Signal, das iiber ein Bildschirrngerat 225 betrachtet wer- 
den kann, oder, wie Fig. 2 und 3 dies zeigen, beispielsweise 
iiber ein Fernsehgerat 240 des Benutzers, wenn dieser auf 
Kanal 3 oder 4 eingestellt wird. Der HF-Modulator 270 
kann auf vielerlei Weise realisiert werden, unter anderem 
unter Verwendung eines Bildmodulators, z. B. Motorola 
MCI 373, an den sich eine Verstarkungsstufe anschlieBt, die 
bei dem bevorzugten Ausfuhrungsbeispiel dazu eingesetzt 
wird, Verluste aus einem Richtkoppler 290 (in Fig. 2 darge- 
stellt) auszugleichen, die gegebenenfalls das HF-Bildaus- 
gangssignal in den zweiten Kommunikationskanai 227 ein- 
speisen, z. B. in das Koaxkabel system in den Raumen des 
Benutzers. 

Wie nachstehend noch ausfuhrlicher erlautert wird, laBt 
sich die erfindungsgemaBe Verfahrensweise in Form eines 
Satzes Programmbefehle zur anschlieBenden Ausfuhrung in 
der Prozessorengruppe 130 und dem zugehorigen Speicher 
und anderen aquivalenten Bauelementen programmieren 
und abspeichern. Der Satz Programmbefehle kann auch in 
jeder Speichereinrichtung abgelegt werden, z. B. in Form ei- 
nes Speicherbausteins in Form einer integrierten Schaltung, 
einer Diskette, einer CD-ROM oder in Form jedes anderen 
lesbaren oder abarbeitbaren Mediums. Bei dem bevorzugten 
Ausfuhrungsbeispiel wird die Prozessorengruppe 130 in 
Verbindung mit einem abgespeicherten Satz Programman- 
weisungen und im Ansprechen auf aile vom Benutzer einge- 
gebenen oder aus dem Netz 104 empfangenen Steuersignale 
fur viele verschiedene Funktionen eingesetzt werden. Infol- 
gedessen weist das bevorzugte Ausfuhrungsbeispiel der 
Prozessorengruppe 130 eine Vielzahl von Betriebsarten auf, 
z. B. Betriebsarten zur visuellen Sprachwiedergabe, fur nor- 
malen Telefonbetrieb (POTS-Betrieb), fur die Ubermittlung 
synthetisierter Sprache und auch bei Audio- und Video- 
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Konferenzen (bei einem bevorzugten Ausfuhrungsbeispiel). 

Das Blockschaltbild in Fig. 2 zeigt ein erstes bevorzugtes 
Ausfuhrungsbeispiel einer Vorrichtung 201 zur visuellen 
Sprachwiedergabe sowie ein erstes bevorzugtes Ausfuh- 
5 rungsbeispiel eines Systems 200 zur visueUen Sprachwie- 
dergabe, beide gemaB der vorliegenden Erfindung. Das Sy- 
stem 200 zur visuellen Sprachwiedergabe 200 umfaBt ein 
Gerat 201 zur visuellen Sprachwiedergabe 201, mindestens 
ein Telefon 150 (in Form der physikalischen Schnittstellen 
10 155) und mindestens ein Fernsehgerat 240 (als eine Art des 
Bildschirmgerats 225), die iiber den zweiten Kcmmunikati- 
onskanal 227 mit der Vorrichtung 201 zur visuellen Sprach- 
wiedergabe gekoppelt sind. Uber die vorstehend angespro- 
chene Netzschnittstelle 110 laBt sich die Vorrichtung 201 zur 
15 visuellen Sprachwiedergabe auch an ein (hier nicht darge- * 
stelltes) Netz 104 ankoppeln. Die Vorrichtung 201 zur visu- 
eUen Sprachwiedergabe umfaBt aufierdem einen HF-Modu- 
lator 270, der mit einem Richtkoppler 290 gekoppelt ist, der 
in vorstehend erlauterter Weise das HF-Bildausgangssignal 
20 vom HF-Modulator 270 in den zweiten Kommunikationska- 
nai 227 ubertragt, beispielsweise in Form einer in den Rau- 
men des Benutzers verlegten Koaxkabelanlage. 

Wie in den hierzu gehorigen Anmeldungen im einzelnen 
erlautert ist, wird die Benutzertonschnittstelle 255 in der 
25 Weise ausgelegt, daB sie den Ubergang zu ublichen Haus- 
haltstelefonapparaten bildet, worunter auch schnurlose Ap- 
parate und Freisprechgerate wie die Telefone 150 fallen. Die 
Benutzertonschnittstelle 255 soli sowohl fur bisher ubliche 
. Gesprache in POTS-Technik als auch fur Bildtelefonie ge- 
30 eignet sein und in Verbindung mit der Netzschnittstelle 110 
auch analoge Modemfunktionen unterstutzen. Dariiber hin- 
aus sorgt die Benutzertonschnittstelle in Verbindung mit ei- 
ner der physikalischen Schnittstellen 155 - beispielsweise 
dem Telefon 150 (bzw. der Tastatur 160, der Maus 170 oder 
35 dem Rechner 175, die in Fig. 1 dargestellt sind) - fur die 
Eingabe der verschiedenen Steuersignale, wie sie beispiels- 
weise zur Anwahl einer Anwendung mit visueller Sprach- 
wiedergabe oder zur Telefonanwahl oder Bildtelefonanwahl 
verwendet werden. Bei dem bevorzugten Ausfuhrungsbei- 
40 spiel wird jedes der Telefone 150 zur Eingabe der verschie- 
denen Steuersignale verwendet, und Anrufe in normaler 
POTS-Technik werden in "transparenter" Form verarbeitet, 
was bedeutet, daB ausgehende und ankomrnende Telefonan- 
rufe so ablaufen, als ob die Funktionen zur visuellen Sprach- 
45 wiedergabe, fur Videokonferenz oder andere Multimedia- 
funktionen nicht vorhanden waren. Dariiber hinaus werden 
bei dem bevorzugten Ausfuhrungsbeispiel die Funkdonen 
mit visueller Sprachwiedergabe, mit Bildtelefonanrufen und 
Multimediafunktionen als Ausnahrnefalle bearbeitet, wobei 
50 der Benutzer eine jeweilige spezielle bzw. vorgegebene 
Wahlfolge eingeben muB, um die visueUe Sprachwieder- 
gabe, einen Bildtelefonanruf oder eine andere Medienfunk- 
tion anzusteuem. Die bei dem bevorzugten Ausfuhrungsbei- 
spiel verwendeten verschiedenen Telefone 150 konnen in je- 
55 der Art normaler Telefone ausgefuhrt sein, einschlieBlich 
schnurloser (tragbarer) Telefone, der ublichen Telefone mit 
SchnuranschluB, DTMF- oder Impulswahltelefone, Bildte- 
lefone oder Freisprechtelefone. 

Wie auch in den zugehorigen Anmeldungen beschrieben, 
60 weist die Benutzertonschnittstelle 255 vorzugsweise eine 
SLIC-Schaltung auf (Subscriber Loop Interface Circuit; 
Teilnehmer-Schieifenschnittstellenschaltung), die soge- 
nannte "BORSHT'-Funktionen fur Telefondienste inner- 
halb der Raume des Benutzers bietet, sowie eine Ringbil- 
65 dungsschaltung; einen TonkodiererAdekodierer fur den Au- 
dioanteil eines Bildtelefongesprachs oder normalen Tele- 
fongesprachs, wobei dieses Teil fur die Analog-Digital-Urn- 
setzungen zur Digitalisierung eines Sprach- bzw. Tonein- 
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gangssignals aus dem Sprechmuscheltei! eines oder rnehre- 
rer derTeleione 150 und die Digiial-Analog-Umsetzung fur 
die Summenwiedergabe aus den Dalenstrorn bzw. Signal ei- 
nes digitaiisienen Sprachausgangssignals sorgt (um ein 
Ton ausgangs signal daraus zu bilden, das dem Sprechteii der 
Telefone 150 zugeleitet wird); und schiieBlich einen pro- 
grarnmierbaren digitalen Signalprozessor (DSP) mit zuge- 
horigem Speicher (der als DSP zur Stimrnverarbeitung in 
den zugehorigen Anmeldungen bezeichnet wird, im Unter- 
schied zu einem anderen DSP-Element, das als DSP-Teil zur 
Bildverarbeitung bezeichnet wird). Das DSP-Element in der 
Benutzertonschnittstelle 255 enthalt einen Programmspei- 
cher und einen Datenspeicher zur Ausfuhrung von Funktio- 
nen zur Signalverarbeitung, beispielsweise die Erfassung 
von DTMFAVahlimpulswahl und Impulserzeugung, fur 
analoge Moderrifunktionen, zur Bildung von Rufablaufto- 
nen (Wahllon, Belegttonzeichen), fur die PCM-Linear-Urn- 
setzung und die Linear-PCM-Umsetzung (Impulskoderno- 
dulation) und die Abspielung der Sprechaufforderung. Der 
dem DSP-zugeordnete Speicher weist bei dem bevorzugten 
Ausfuhrungsbeispiel einen Festspeicher (als Sprach-ROM- 
Speicher bezeichnet) hoher Dichte mit PCM-kodierten 
(bzw. komprimierten) Sprachsegmenten auf, die zur Interak- 
tion mit dem Benutzer verwendet werden, z. B, zur Auffor- 
derung des Benutzers zur Eingabe des DTMF- oder Impuls- 
wahlverfahrens uber die Tastatur, wenn die Verbindung liber 
die Bildtelefoniefunktion oder eine in einem anderen Multi- 
mediarnodus hergestellt werden soil. Daneben kann bei Be- 
darf ein Sprach-RAM-Speicher fur Speicherfunktionen zur 
Sprachspeicherung durch den Benutzer verwendet werden, 
sowie ein elektrisch veranderbarer programmierbarer lei- 
stungsloser (schnell loschbarer) Speicher zur Abspeiche- 
rung von Programmen (und Programmerweiterungen) oder 
Algorithmen. 

Die Prozessorengruppe 130 (gemaB Fig. 1) ist bei dem 
Gerat 201 zur visuellen Sprachwiedergabe in Form eines 
Mikroprozessor-Teil systems 260 und eines Teilsystems 
(bzw. Prozessors) 505 zur visuellen Sprachwiedergabe aus- 
gefuhrt, der in Fig. 2 dargestellt ist. Wie ausfiihrlich in den 
hierzu gehorigen Anmeldungen dargestellt, besteht das Mi- 
kroprozessor-Teilsystem 260 aus einem Mikroprozessor 
oder einer anderen Verarbeitungseinheit, beispielsweise in 
Form des Motorola-Bauteils MC68LC302, und einem Spei- 
cher, der einen Direktzugriffsspeicher (RAM) und einen 
Festwertspeicher (ROM) und bei dem bevorzugten Ausfuh- 
rungsbeispiel auch einen sogenannten programmierbaren 
Rash-Speicher (z.B. Rash-EPROM bzw. E 2 PROM) um- 
faBt, wobei die Komraunikations verbindung uber die Bus- 
leitung 261 mit der Netzschnittstelle 110, der Benutzerton- 
schnittstelle 255 und uber die Busleitung 263 mit dem Teil- 
system 305 zur visuellen Sprachwiedergabe hergestellt 
wird. Fur den Festwertspeicher wird ebenfalls ein program- 
mierbarer Rash-Speicher verwendet, so daB der Speicherin- 
halt aus dem Netz 104 heruntergeladen werden kann. Infol- 
gedessen konnen verschiedene Versionen der Betriebssoft- 
ware (Programmbefehle) wie z. B. Programmverbesserun- 
gen realisiert werden, ohne daB an dem Gerat 201 zur visu- 
ellen Sprachwiedergabe Veranderungen vorgenommen wer- 
den miissen und ohne daB der Benutzer eingreifen muB. Das 
Mikroprozessor-Teilsystem 260 sorgt fur die Steuerung und 
Konfigurierung des Prozessors 305 zur visuellen Sprachwie- 
dergabe, fur die Verarbeitung normaler Telefongesprache, 
von Telefongesprachen in Digitaltechnik und wird auSer- 
dem zur Implernenuerung eines ISDN-Stapels oder eines 
anderen Protokollstapels eingesetzt, wenn dies fur analoge 
oder digitale Bildtelefonieverbindungen erforderlich ist, 
z. B. bei Meldungsuberrnittlung mit ITU Q.931-Protokoil. 

Das Teilsystem 305 zur visuellen Sprachwiedergabe,. das 



auch als Prozessor zur visuellen Sprachwiedergabe bezeich- 
net wird, kann auBerdero aus einem Mikroprozessor bzw. ei- . 
ner anderen Verarbeitungseinheit wie beispielsweise dem 
Motorola-Baustein MC68LC302 und aus einem Speicher 

5 bestehen, der bei dem bevorzugten Ausfuhrungsbeispiel ei- 
nen RAM- und einen ROM-Speicher und auBerdem einen 
programmierbaren Rash-Speicher (z. B. Rash-EPROM 
bzw. E 2 PROM) urnfaBt. Wie Fig. 2 zeigt, gehoren zu dem 
Teilsystem 305 zur visuellen Sprachwiedergabe auch zwei 

10 Funktionsbiocke, und zwar ein Teilsystem (bzw. Prozessor) . 
307 zur Spracherkennung and ein Teilsystem (bzw. Prozes- 
sor) 309 zur Bildschirmdarstellung. 

Je nach Art der Netzschnittstelle 110 und dem zugehori- 
gen bzw. entsprechenden Netz 104 konnen die aus dem Netz 

15 104 ankommenden Sprachsignale verschiedene Formate 
aufweisen. Beispielsweise werden bei AnschluB an das 
PSTN-Netz die ankommenden Sprachsignale in Form ana- 
loger Signale von der Netzschnittstelle 110 empfangen und 
vorzugsweise in ein digitales Format umgewandelt, z. B. in 

20 ein impulskodemoduliertes (PCM) digitales Sprachsignal. 
Bei AnschluB an ein Kabelnetz werden die ankommenden 
Sprachsignale von der Netzschnittstelle 110 als CACS-Si- 
gnale oder als Signale nach einem anderen Empfangsproto- 
koll empfangen, die dann zur Bildung eines digital kodierten 

25 Sprachsignals, z. B. eines PCM-kodierten Sprachsignals, 
demoduliert werden konnen. Sind die Sprachsignale Teil ei- 
ner Audio-/Video-Konferenz, so trennt das Mikroprozessor- 
Teilsystem 260 das digitale Sprachsignal vom Bildsignalan- 
teil zur separaten Verarbeitung (wie nachstehend anhand 

30 von Fig. 3 erlautert wird). Das digitale Sprachsignal wird 
dann zum Teilsystem 307 zur Spracherkennung ubermittelt. 
Bei dem bevorzugten Ausfuhrungsbeispiel ist das Teilsy- 
stem 307 zur Spracherkennung mit einer Spracherkennungs- 
Software programmiert, die eine Eigenentwicklung oder 

35 auch eine im Handel erhaltliche Software sein kann, z. B. 
das Softwaresystem zur Spracherkennung von IBM oder 
Lexicus (einer Tochtergesellschaft von Motorola, Inc.). Bei 
dem bevorzugten Ausfuhrungsbeispiel kann das Spracher- 
kennungs-Teilsystern 307 im Laufe der Zeit trainiert wer- 

40 den, um so die Prazision bei der Spracherkennung bei haufi- 
gen Anrufem zu erhohen. Das Teilsystem 307 zur Spracher- 
kennung generiert aus dem digitalen Sprachsignal eine Text- 
darstellung der gesprochenen Sprache, die unterschiedlich 
formatiert sein kann, d. h. in Form eines Textes im ASCII- 

45 Format oder eines Textes in einer anderen entsprechend ko- 
dierten bzw. formatierten Form. Die Textdarstellung der ge- 
sprochenen Sprache wird dann zum Teilsystem 309 zur 
Bildschirmdarstellung ubertragen, das ebenfalls mit einer 
handelsublichen oder speziell entwickelten. Software pro- 

50 grammiert ist. Das Teilsystem 309 zur Bildschirmdarstel- 
lung kann auch unter Verwendung einer separaten integrier- 
ten Schaltung, z. B. OSD PCA855D von Philips, realisiert 
werden. Das Teilsystem 309 zur Bildschirmdarstellung setzt 
die Textdarstellung der gesprochenen Sprache in ein Format 

55 zur Bildschirmdarstellung um, das dann als Bildausgangssi- 
gnal im Basisband an den HF-Modulator 270 ausgegeben 
wird. Es konnen auch andere Bildformate herangezogen 
werden, z. B. das nachstehend anhand von Fig. 3 erlauterte 
Untertitelformat. Der HF-Modulator setzt das Bildaus- 

60 gangssignal im Basisband in ein Hochfrequenz-Bildaus- 
gangssignal um, das dann beispielsweise auf Kanal 3 oder 4 
uber den zweiten Kommunikationskanal 227 zur Anzeige 
auf den verschiedenen Fernsehgeraten 240 ubertragen wird. 
Infolgedessen setzt das Gerat 201 zur visuellen Sprachwie- 

65 dergabe das ernpfangene Tonsignal - z. B. in Form eines aus 
einem Netz kommenden Sprachsignals - in ein Hochfre- 
quenz-Bildausgangssignal um, das dann zu einem oder 
mehreren Bildschirmgeraten (z. B. zum Femsehgerat 240) 
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zur visuellen Anzeige des gesprochenen Textes iibertragen 
wird. 

Wie vorstehend und auch in den hierzu gehorigen Anmel- 
dungen dargesteilt, leilet der Benulzer bei dem bevorzugten 
Ausfiihrungsbeispiel einen Multimedia- Modus- z. B. die vi- 5 
suelle Darstellung des Sprachmodus oder eines Videokonfe- 
renzrnodus. - dadurch ein, daB er irn Unterschied zurn nor- 
malen bzw. gewohnlichen Telefonbetrieb eine spezieUe vor- 
gegebene Folge eintippt, die von dem DSP-Element in der 
BenutzertonschnittsteDe 255 als Folge fiir einen Mukime- 10 
dia-Modus erkannt wird. Alternativ kann eine Vielzahl von 
Signal folgen fur einen Multimediamodus venvendet wer- 
den, wobei jede Yorgegebene Folge speziell fur einen ge- 
wahlten Multimediamodus gilt, z. B. Videomodus oder Be- 
triebsart rait visueller Sprachwiedergabe. Diese Methodik 15 
wird auch. im folgenden anhand des Ablaufdiagramms in 
Fig. 4 noch erlautert. Fur einen Multimedia- Modus sind bei 
dem bevorzugten Ausfuhrungsbeispiel die ersten beiden 
Ziffern der spezifischen vorgegebenen Folge beispielsweise 
nur fur diese Anwendung reserviert und werden bei einem 20 
ublichen Anruf in POTS-Technik nicht verwendet, z. B. 
"**"; infolgedessen konnen sie speziell dem DSP- Element 
mitteilen, daB statt eines normal en Tel efonbetriebs modus 
nun in einen Multimedia-Modus umgeschaltet werden soil. 
Alternativ konnte der Benutzer auch andere spezifische vor- 25 
gegebene Folgen als Kennung fiir einen Multimedia-Modus 
einprogrammieren. Die verschiedenen Medien-Betriebsar- 
ten konnten lokal uber eine der physikaiischen Schnittstel- 
len 155 oder aus der Entfemung uber einen AnschluB uber 
das Netz 104 und die Netzschnittstelle eingegeben werden. 30 
Unmittelbar nach Dekodierung der beiden speziellen Ziffern 
oder einer anderen spezifischen vorgegebenen Folge als 
Hinweis auf einen Multimedia-Modus leitet das Gerat 201 
zur visuellen Sprachwiedergabe den Ablauf zur Ansteue- 
rung der visuellen Sprachwiedergabe (bzw. der Multimedia- 35 
Anwendung) ein, beispielsweise dadurch, daB das DSP-Ele- 
ment eine Abfolge zur Aufforderung in gesprochener Spra- 
che oder per Videodarstellung generiert, abspielt oder an- 
zeigt, z. B. "Bitte wahlen Sie eine Anrufoption oder drucken 
Sie Taste zur Hilfestellung\ die im ROM-Teil des Spei- 40 
chers in der Benutzertonschnitts telle 255 abgespeichert ist. 
Was das DSP-Element unternimmt erfolgt dann im Anspre- 
chen auf die eingegebene Folge oder auf den Tastendruck 
des Benutzers nach der ersten Aufforderung und hangt da- 
von ab. Wird beispielsweise die Taste "#" gedriickt, kann der 45 
Benutzer ein Befehlsmenu sehen oder hbren, zum Beispiel 
in dieser Form: 

- "zur Eingabe der visuellen Darstellung gesprochener 
Sprache - 1 drucken" 50 

- "zur Eingabe des Videokonferenz-Modus - 2 drtik- 
ken" 

- "zur Eingabe der Automatisierung im Haus - 3 driik- 
ken" 

- "zur Eingabe gesprochener Nachrichten - 4 driik- 55 
ken" 

- "zum nochmaligen Abspielen dieses Mentis - # 
drucken" 

Nach Auswahl des besonderen oder speziellen Medien- 60 
Modus durch den Benutzer, z. B. Bilddarstelluhg gespro- 
chener Sprache, generieren das Gerat 201 bzw. das System 
200 zur visuellen Sprachwiedergabe ein Untermenu mit Be- 
fehlen oder bringen dies auf den Bildschirm. Hat beispiels- 
weise der Benutzer eine Betriebsart rnit visueller Anzeige 65 
gesprochener Sprache gewahlt, kann er ein Untermenu mit 
Befehlen sehen oder hbren, wie zum Beispiel das folgende: 



- "fur Aniuf iiber .KTTtnummern verzeichnis - * druk- 
ken" 

- "fur Aktualisierung des Rufnumrnernverzeichnisses 

- 2 drucken" 

- "fur manuellen Bildtelefonanruf - 3 drucken" 

- "fur Zuschaltung der Sprachgenerierung - 4 druk- 
ken" 

- "zum nochmaligen Abspielen dieses Menus - # 
drucken". 

Einer der Vorteile des Rufnumrnemverzeichnisses des 
Benutzers besteht bei dem bevorzugten Ausfuhrungsbei- 
spiel darin, daB durch die Vorauswahldes anzurufenden 
Teilnehmers dem Teilsystem 307 fiir die Spracherkennung 
mitgeteilt werden kann, daB ein Teilnehmer angerufen wer- 
den soli, den es bereits "gelernt" hat, also ein Teilnehmer, 
mit dem das Teilsystem 307 zur Spracherkennung bereits 
ein gewisses Training absolviert hat Infolgedessen kann das 
Teilsystem 307 zur Spracherkennung im wesentlichen noch 
feiner abgestimmt werden, urn die Sprechweise einer be- 
stimmten Person zu erkennen, wodurch die Prazision bei der 
visuellen Darstellung der horbaren Sprache noch verbessert 
wird. AuBerdem kann der Benutzer auch durch Eingabe die- 
ser unterschiedlichen Steuersignale bei ankommenden Ge- 
sprachen dem Teilsystem 307 zur Spracherkennung einen 
Hinweis darauf iibermitteln, daB ein bestimmter Teilnehmer 
angerufen hat, und zwar wiederum zur Aktivierung dieser 
Feinabstimmung des Teilsystems 307 zur Spracherkennung 
auf ein zuvor im Zusammenhang mit dem anrufenden ande- 
ren Teilnehmer erlerntes Muster, 

Darnit wird bei dem bevorzugten Ausfuhrungsbeispiel 
eine automatisierte benutzerfreundliche Abfolge von Auf- 
forderung en verwendet, um den Benutzer durch den Ablauf 
bzw. die Sequenz zur visuellen Sprachwiedergabe uber eine 
einzige (bzw. integrierte) .physikalische Schnittstelle, z. B. 
ein Telefon 150, zu fuhren, statt uber mehrere und unter- 
schiedliche (und auBerdem haufig verwirrende) Schnittstel- 
len. Zu weiteren noch besser entwickelten Systemen zur In- 
teraktion mit dem Benutzer konnen auch die Benutzung des 
Fernsehgerats 240 oder eines anderen Bildschirrngerats zur 
visuellen Bildschirmdarstellung eines Menus mit Optionen 
gehoren, wobei die Steuersignale vom Benutzer entspre- 
chend eingegeben werden, z. B. als Anruf steuerinformauon 
oder als Informationen fiir einen vorzunehmenden Anruf, 
was auf unterschiedliche Weise geschehen kann, z. B. iiber 
die Tastatur auf den Telefonen 150, iiber eine Verbindung 
zur Infrarot-Fernsteuerung mit dem Gerat 201 zur visuellen 
Sprachwiedergabe, oder mittels des zweiten Kommunikati- 
onskanals 227 (in Fig. 3 dargesteilt) uber einen Bildeinga- 
bepfad. 

Das Blockschaltbild in Fig. 3 zeigt ein zweites bevorzug- 
tes Ausfuhrungsbeispiel des erfindungsgemaBen Gerats 301 
zur visuellen Sprachwiedergabe und des erfindungsgemaBen 
Systems 300 zur visuellen Sprachwiedergabe (und Sprach- 
generierung), Dabei umfaBt das System 300 zur visuellen 
Sprachwiedergabe (und Sprachgenerierung) ein Gerat 301 
zur visuellen Sprachwiedergabe und Spracherkennung, min- 
destens ein Telefon 150 und eine Tastatur 160 (als physika- 
lische Schnittstellen 155), mindestens ein Ferhsehgerat 240 
(als eine Art Bildschirmgerat 225), das uber den zweiten 
Kommunikationskanal 227 mit dem Gerat 301 zur visuellen 
Sprachwiedergabe und Sprachgenerierung gekoppelt ist, 
eine Videokamera 230 und eine Karneraschnitlstelle 235. 
Die Videokamera 230 und die Kameraschnittstelle 235 wer- 
den in den hiermit zusammenhangenden Anmeldungen im 
einzelnen beschrieben und hier zum Zwecke der umfassen- 
den Moglichkeit zur Videokonferenz herangezogen; dies ge- 
schieht in der Form, daB ein Video- bzw. Bildsignal aus der 
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Videokamera 230 und der Kameraschnittstelle 235 in den 
Raumen des BenuUers (durch den Demodulator 275) demo- 
difier! und (im Teilsystern 265 zur Audio-/Video-Kompres- 
sion und -Dekompression) zur Ubertragung durch das Gerat 
301 zur visuellen Sprachwiedergabe und Sprachgenerierung 
uber den ersten Kommunikationskanal 103 zu einem (hier 
nicht dargestellten) Netz 104 verarbeitet werden kann. 

Aus Fig. 3 ist des weiteren zu entnehmen, daB das Gerat 
301 zur visuellen Sprachwiedergabe und Sprachgenerierung 
viele derselben Bauelemente und Baugruppen umfaBt, die 
vorstehend unter Bezugnahme auf Fig. 2 erlautert wurde, 
z. B. eine Netzschnittstelle 110, eine Benutzertonschnitt- 
s telle 255, ein Mikrbprozessor-Teilsystem 260, einen HF- 
Modulator 270 und einen Richtkoppler 290. Die Vorrich- 
tung zur visuellen Sprachwiedergabe .und Sprachgenerie- 
rung umfaBt einen zweiten Typus eines Teilsy stems (Prozes- 
sors) zur visuellen Sprachwiedergabe, namlich das Teilsy- 
stern (bzw. den Prozessor) 310 zur visuellen Sprachwieder- 
gabe, der dazu eingesetzt wird, fiir die visuelle Darstellung 
gesprochener Sprache ein Untertitelformat zu bilden; des 
weiteren umfaBt das System auch ein Teilsystern (einen.Pro- 
zessor) 320 zur Sprachgenerierung, welches eingegebenen 
Text in horbare Sprachsignale zur Ubertragung in das Netz 
104 umsetzt. Die Vorrichtung zur visuellen Sprachwieder- 
gabe und Sprachgenerierung ist auBerdem mit mindestens 
einem Telefon 150 zur Eingabe von Steuersignalen und ei- 
ner Tastatur 160 zur Texieingabe (fur die anschlieBende 
Sprachgenerierung) gekoppelt. Das Gerat zur visuellen 
Sprachwiedergabe und Sprachgenerierung wird ebenfalls in 
der Weise gesteuert, wie sie vorstehend anhand des Gerats 
201 zur visuellen Sprachwiedergabe erlautert wurde, und 
zwar durch Eingabe von Steuersignalen (vorzugs weise uber 
ein Telefon 150). 

Wie in den zugehorigen Anmeldungen ausfuhrlich darge- 
stellt, fiihrt das Teilsystern 265 zur Auction/Video- Kornpres- 
sion und -Dekompression die Kompression und Dekom- 
pression von Ton- und Bildsignalen vor, vorzugsweise unter 
Verwendung von Protokollen aus der Serie ITU H.32x; die- 
ses Teilsystern wird in erster Linie fur Videokonferenzschal- 
tungen eingesetzt. Fiir die visuelle Darstellung gesprochener 
Sprache aus dem Audioteil eines Videokonferenzanrufs (der 
iiber ein Netz 04 ubertragen wird) dekomprimiert das Teil- 
systern 265 zur Audio-/Video- Kompression und -Dekom- 
pression das Tonsignal und trennt es vom Bildanteil des Vi- 
deokonferenzanrufs ab. Dabei wird auch der Bildanteil des 
Videokonferenzanrufs dekomprimiert und in ein Bildaus- 
gangssignal im Basisband umgewandelt (was in den hierzu 
gehorenden Anmeldungen im einzelnen beschrieben wird). 
Das Tonsignal wird dann vom Teilsystern 307 zur Spracher- 
kennung verarbeitet, urn eine Darstellung der gesprochenen 
Sprache in Form eines geschriebenen Textes zu bilden, wie 
vorstehend anhand von Fig. 2 erlautert wurde. Die Textdar- 
stellung der gesprochenen Sprache wird dann vom Unterti- 
tel-Kodierer 311 verarbeitet, indem die Textdarstellung in 
ein Untertitelformat umgesetzt wird, was beispielsweise in 
der vertikalen Austastliicke geschehen kann. Der Untertitel- 
Kodierer311 kann unter Verwendung eines handelsublichen 
oder speziell hierfur entwickelten Untertitel-Kodierers bzw. 
Prozessors realisiert werden. Das Untertitel-Bildsignal im 
Basisband wird dann in einer Mischerstufe 313 mit dem 
Bildausgangssignal im Basisband (aus dem Bildteii des Vi- 
deokonferenzanrufs) gemischt. Das gemischte Bildsignal, 
das nun die reine Bildinformation und die Untertitelinfor- 
mation enthalt, wird anschlieBend im HF-Modulator 270 zur 
Darstellung auf einem der Fernsehgerate 240 moduliert und 
iibertragen. Bei diesem Ausfuhrungsbeispiel mit dem Sy- 
stem 301 umfaBt ein Fernsehgerat 240 vorzugsweise einen 
Untertiteldekoder zur Dekodierung und Darstellung des Un- 



tertitelsignals. 

Die zur Darsteliung auf den verschiedenen Fernsehem 
oder anderen Bildschirmgeraten ubertragenen Informatio- 
nen zur visuellen Sprachwiedergabe konnen auch noch wei- 

5 tere Informalionen enthalten. Beispielsweise laBt sich auch 
eirie Lautstarkeinformation einbeziehen und darsteUen, auch 
unter Verwendung einer Darstellung mit Sinuswellen zum 
Beispiel, wobei eine Amplitude mit der Lautstarke korreliert 
oder diese darstellt, oder unter Verwendung eines Fettdruck- 

10 oder Unterstreichungsformats, das ebenfalls mit der Laut- 
starke oder anderen Kervorhebungen in der gesprochenen 
Sprache korreliert. 

Die Vorrichtung 301 zur visuellen Sprachwiedergabe und 
Sprachgenerierung umfaBt auBerdem ein Teilsystern (einen 

15 Prozessor) 320 zur Sprachgenerierung, der mit einer Tasta- 
tur 160 zur Texteingabe fur die anschlieBende Umsetzung in 
gesprochene Sprache und Ubermittlung an ein Netz 104 ge- 
koppelt ist. Bei dem bevorzugten Ausfuhrungsbeispiel ist 
das Teilsystern 320 zur Sprachgenerierung, das auch als 

20 Sprachgenerator-Piozessor bezeichnet wird, mit einer Soft- 
ware zur Sprachgenerierung programmiert, die eine Sonder- 
entwicklung fur diesen Zweck oder eine handelsubliche 
Software sein kann oder unter Verwendung von handelsub- 
lichen integrierten oder anderen Schaltungselementen reali- 

25 sierbar ist. Wie vorstehend im Hinblick auf ein ankommen- 
des Signal in gesprochener Sprache erlautert wurde, kann 
das in das Netz 104 zu iibertragende Ton- bzw. Sprachsignal 
je nach Art des Netzanschlusses unterschiedlich gebildet 
sein, wobei es sich zum Beispiel um ein analoges Tonsignal 

30 zu Ubermittlung an ein PSTN-Netz, ein digitales Sprachsi- 
gnal zur Ubertragung in ein ISDN-Netz oder um ein Sprach- 
signal nach CACS-Protokoll zur Ubertragung an eine Pri- 
marstation und anschlieBende Netzkommunikadon handeln 
kann. Vorzugsweise wird zur Generierung von gesprochener 

35 Sprache Text iiber die Tastatur 160 in ein Teilsystern 321 
zum Festhalten von Text beispielsweise in ASCII-Kodie- 
rung oder in anders kodierter oder auch binarer Form einge- 
geben und dann wird der Text aus diesem Format in Sprach- 
format umgesetzt (in Wortern und Satzteilen), was in dem 

40 Teilsystern 322 zur Umsetzung von Text in Sprache ge- 
schieht Das Sprachformatsignal wird dann in dem Sprach- 
synthesizer 323 in synthetisierte Sprache umgewandelt und 
kann danach in jedem geeigneten analogen, digitalen oder 
kodierten Format in ein Netz 104 ubertragen werden. 

45 Fig. 4-zeigt ein Ablaufdiagramm zur Veranschaulichung 
eines erfindungsgemaBen Verfahrens zur visuellen Sprach- 
wiedergabe und zur Sprachgenerierung. Fig. 4 zeigt dabei 
auch die verschiedenen Aufgaben bzw. Betriebsarten eines 
Telefons - z. B. des Telefons 150 - bei dem erfindungsge- . 

50 maBen System auf, unter anderem fur den normal en Tele- 
fonbetrieb (in POTS-Technik) zur fur Multimedia-Steue- . 
rungszwecke, wozu auch Steuersignale zur Anwahl der Be- 
triebsarten zur visuellen Sprachwiedergabe und zur Video- 
konferenzschaltung gehoren. GemaS Fig. 4 beginnt das Ver- 

55 fahren mit dem Startschritt 400 und im Schritt 405 wird eine 
Bedienungsanforderung erfaBt, zum Beispiel Abheben oder 
Empfangen eines Meldesignals fur einen ankommenden 
Anruf. Als nachstes erfolgt im Schritt 410 ein Hinweis bzw. 
eine Meldung an den Benutzer, z. B. mit visuell erkennba- 

60 rem oder horbarem Wahlton, ein Lautesignal fiir einen an- 
kommenden Anruf oder ein sichtbares Signal zur Meldung 
eines ankommenden Anrufs, und es werden Meldeinforma- 
tionen zusarhrhengefaBt z. B. DTMF-Ziffern fur eine Tele^ 
fonnummer oder "**". Wurde in Schritt 415 der Betriebs- 

65 modus zur visuellen Sprachdarstellung gewahJ.t, z. B. durch 
Eingabe von "**" oder wird cine ankommende Meldung aus 
dem Netz 104 empfangen, verzweigt das Verfahren zum 
Schritt 435. Wurde itn Schritt 415 die Betriebsart zur visuel- 
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!en Sprachdarstellung nichl angeforderi, so lauft das Verfah- 
ren mil der Anforderung bzw. Anwahl eines normalen Tele- 
fongesprachs weiter, z. 3. mit Generierung von DTMF-To- 
nen und Verbindung eines Audioschahwegs zwischen dem 
Telefon des Benutzers und dem Netz 104 - Schritt 420 - 
woraufhin in den transparenten Telefonmodus geschaltet 
wird und Audiodaten (im typischen Fall PCM-Daten) im 
Schritt 425 zum Netz 104 ubermittelt werden. Die Audioda- 
ten wurden zuvor von der Benuizertonschnittstelle 255 
PCM-kodiert und von der Netzschnitts telle 110 in ein ent- 
sprechendes digitales oder analoges Format (z.B. ISDN, 
POTS, etc.) zur Weiterleitung in das Netz 104 urngewandelt! 
Nach Beendigung des Telefongesprachs im Schritt 430 kann 
das Verfahren mit dem Ruckkehrschritt 500 beendet sein. 

Aus Fig. 4 ist des weiteren ersichtlich, daB bei Anforde- 
rung der Betriebsart zur visuellen Sprachwiedergabe im 
Schritt 415 das Verfahren zum Schritt 435 verzweigt und 
nun feststellt, ob auch Sprachgenerierung angefordert'wird. 
Wurde im Schritt 435 auch die Sprachgenerierung verlangt 
so verzweigt das Verfahren auch weiter zum Schritt 475 zur 
Sprachgenerierung gleichzeitig mit visueller Sprachdarstel- 
lung. Wurde im Schritt 415 unabhangig von der Anforde- 
rung von Sprachgenerierung im Schritt 435 nur die visuelle 
Sprachwiedergabe angefordert, so schaltet das Verfahren 
zum Schritt 440 weiter und initialisiert das System zur visu- 
ellen Sprachwiedergabe, zum Beispiel durch Abspielen ei- 
ner einleitenden gesprochenen oder visuell dargestellten 
Aufforderung, wie vorstehend bereits erlautert wurde. Als 
nachstes wird im Schritt 445 ein Tonsignal empfangen, und 
das empfangene Tonsignal wird nun im Schritt 450 in eine 
Darstellung der gesprochenen Sprache in Textform umge- 
wandelt. Die Textdarstellung der gesprochenen Sprache 
wird anschlieBend im Schritt 455 in ein Bildausgangssignal 
im Basisband umgewandelt und so moduliert, daJ3 im Schritt 
460 ein Hochfrequenz-Bildausgangssignal gebildet wird. 
Das Hochfrequenz-Bildausgangssignal wird anschlieBend 
im Schritt 465 zu einem Bildschirmgerat ubertragen. Nach 
Beendigung des Schrilles der visuellen Sprachdarstellung 
im Schritt 470 kann das Verfahren zur visuellen Sprachwie- 
dergabe mit dem Ruckkehrschritt 500 beendet werden. 

Wurde im Schritt 435 auch gleichzeitig mit dem Arbeits- 
gang zur visuellen Sprachwiedergabe in den vorstehend er- 
iauterten Schritten 440 bis 470 die Sprachgenerierung ange- 
fordert, so verzweigt das Verfahren zum Schritt 475, urn das 
Teilsystem zur Sprachgenerierung zu initialisieren, was 
ebenfalls iiber die vorstehend dargestellten sichtbaren oder 
horbaren Aufforderungen geschieht. Als nachstes wird im 
Schritt 480 eingegebener Text empfangen und im Schritt 
485 wird der empfangene Eingabetext in ein Sprachsignal 
umgesetzt, das ein analog oder ein digital kodiertes Sprach- 
signal sein kann. Im Schritt 490 wird dann das Sprachsignal 
beispielsweise zu einem Telekommunikationsnetz ubertra- 
gen; wenn dann der Arbeitsgang zur Sprachgenerierung im 
Schritt 495 beendet ist, kann das Verfahren mit dem Ruck- 
kehrschritt 500 beendet sein. 

Zahlreiche Vorteile der verschiedenen erfindungsgema- 
Ben Vorrichtungen, Verfahrensweisen und Systeme liegen 
klar auf der Hand. Zunachst sorgen die verschiedenen Ge- 
rate, Verfahren und Vorrichtungen gemaB der vorliegenden 
Erfindung fur die visuelle Darstellung bzw. Wiedergabe von 
gesprochener Sprache, ohne daB lokal und am entfernt lie- 
genden Ort bei einer Kornmunikationsverbindung speziell 
nur fur diesen Zweck vorgesehene Gerate und Systeme vcr- 
ausgesetzt werden. Dabei kann jedes Telefon am entfernten 
bzw. weit abliegenden anderen Ende eingesetzt werden, wo- 
bei die uberrnittelten Informationen in gesprochener Spra- 
che auf jedem angeschlossenen Femsehgerat oder einem an- 
deren Bildschirmgerat uberall in den Raurnen lokal beim 
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Benutzer angezeigi werden konnen. AuBerdem ist bei den 
verschiedenen Ausfuhrungsbeispielen der vorliegenden Er- 
findung kein groBerer Aufwand an manueller Betatigung fiir 
den Betrieb erforderlich. Beispielsweise ist es im Gegensatz 
5 zu Geraten nach dem Stand der Technik nicht erforderlich, 
den visuell darzustellenden Text iiber eine Tastatur einzuge- 
ben. AuBerdem entfallt die Notwendigkeit Systeme doppelt 
vorzusehen, so daB Gerat zur visuellen Sprachwiedergabe 
nur lokal am Kommunikationsort benbligt wird und sich da- 
10 rnit die vorliegende Erfindung vergleichsweise kostengun- 
stig realisieren laBL AuBerdem sind die erfindungsgemaBen 
Vorrichtungen und Systeme benutzerfreundlich, indem sie* 
den Benutzer systematisch durch das Verfahren zum Einsatz 
und zur Steuerung des Arbeitsgangs 'zur visuellen Sprach- 
15 darstellung fiihren. 

Ein weiteres wichtiges Merkmal der erfindungsgemaBen 
Vorrichtung, des Verfahrens und der Systeme besteht darin, 
daB es sich um ein offenes System handelt, so daB jeder Be- 
nutzer des Gerats zur visuellen Sprachdarstellung mit jedem 
20 anderen kommunizieren kann, der Zugang zu einem Telefon 
hat, wodurch ein Kornmunikationsmodell geschafFen wird, 
bei dem jeder mit alien kommunizieren kann, da ein rnoder- 
nes Telefon uberall anzutreffen ist. Dieser Vorteil steht in 
deutlichem Kontrast zu den geschlossenen Systemen nach 
25 dem Stand der Technik, bei denen speziell nur fur diese 
Zwecke ausgebildete Systeme an alien Kornmunikauons- 
punkten vorhanden sein mussen, wodurch ein Kornmunika- 
tionsmodell entsteht, bei dem einer nur mit jenen paar ande- 
ren kommunizieren kann, die zu diesen spezialisierten 
30 zweckgebundenen Geraten und Systemen Zugang haben. 
GemaS der vorliegenden Erfindung kann jeder Horbehin- 
derte uber ein normales Telekommunikationsnetz mit jedem 
anderen Teilnehmer kommunizieren, ohne daB an einem 
dieser entfernten Orte, an denen sich der andere Teilnehmer 
35 befindet, eine besondere Ausriistung benotigt wird. Dieses 
Merkmal eines offenen Systems ist wirklich revolutionar 
und bisher einmalig, da es ersunals eine universelle Mog- 
lichkeit zur Kommunikation rnit Horbehinderten iiber ein 
ganz normales Telekommunikationsnetz bietet, das sich ir- 
40 gendwo auf der Welt befindet 

Patentanspriiche 

1. Vorrichtung zur visuellen Wiedergabe von Sprache, 
dadurch gekennzeichnet, daB sie folgendes aufweist: 
eine Netzschnittstelle.(llO), die mit einem ersten Kom- 
munikationskanal (103) zum Empfangen eines ersten 
Tonsignals zur Bildung eines Tonempf angssignals kop- 
pelbar ist; 

einen Hochfrequenzmodulator (270) zur Umwandlung 
eines Bildausgangssignals im Basisband in ein Hoch- 
frequenz-Bildausgangssignal auf einem zweiten Kom- 
munikationskanal (227) zur Bildanzeige- und 
eine Prozessorengruppe (130), welche mit der Netz- 
schnittstelle (110) und dem Hochfrequenzmodulator 
(270) gekoppelt ist und unter Ansteuerung durch einen 
Satz Prograrnmbefehle in der Weise anspricht, daB sie 
das Tonempfangssignal in eine Sprachwiedergabe in 
Textiform umseut und weiterhin die TextdarsteDung 
gesprochener Sprache in das Bildausgangssignal im 
Basisband umsetzt. 

2. Vorrichtung nach Anspruch 1, dadurch' gekenn- 
zeichnet, daB sie eine mit der Netzschnittstelle (110) 
und der Prozessorengruppe (130) gekoppelte Benutzer- 
schnittstelle (120) zum Empfangen eines Steuersignals 
aus einer Vielzahl von Steuersignalen aufweist. 

3. Vorrichtung nach Anspruch 2, dadurch gekenn- 
zeichnet, daB die Benutzerschnittstelle auBerdem rnit 
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einer physikalischen SchnittsteLle fur die Eingabe der 
Vielzahl von Steuersignalen koppelbar ist. 

4. Vorrichtung nach Anspruch 3, dadurch gekenn- 
zeichnet, daB die physikalische Schnittstelle ein Tele- 
fon ist. 5 

5. Vorrichtung nach Anspruch 3, dadurch gekenn- 
zeichnet, daB die physikalische Schnittstelle eine Ta- 
statur ist 

6. Vorrichtung nach Anspruch 3, dadurch gekenn- 
zeichnet, daB die physikalische Schnittstelle ein Rech- io 
ner ist. 

7. Vorrichtung nach Anspruch 1, dadurch gekenn- 
zeichnet, daB in der Prozessoranordnung (130) eine 
Vielzahl von Betriebsarten vorgesehen ist, zu denen 
eine Telefonbetriebsart und eine Betriebsart mit visuel- 15 
ler Sprach wiedergabe gehoren, und daB die Prozesso- 
rengruppe (130) des weiteren mit Auswahl der Be- 
triebsart mit visueller Sprachdarstellung auf ein Steuer- 
signal anspricht. 

8. Vorrichtung nach Anspruch 1, dadurch gekenn- 20 
zeichnet, daB die Prozessoranordnung folgendes um- 
faBt: 

ein Mikroprozessor-Teilsystem (260); 
einen mit dem Mikroprozessor-Teilsystem (260) ge- 
koppelten Speicher; und 25 
einen mit dem Mikroprozessor-Teilsystem (260) und 
dem Speicher gekoppelten Prozessor (305) zur visuel- 
len Sprachwiedergabe. 

9. Vorrichtung nach Anspruch 8, dadurch gekenn- 
zeichnet, daB der Prozessor (305) zur visuellen Sprach- 30 
wiedergabe weiterhin folgendes umfaBt: 

einen Prozessor (307) zur Spracherkennung; und 
einen mit dem Prozessor (307) zur Spracherkennung 
gekoppelten Prozessor (309) fiir die Wiedergabe auf ei- 
nem Bildschirm. 35 

10. Vorrichtung nach Anspruch 8, dadurch gekenn- 
zeichnet, daB der Prozessor (305) zur visuellen Sprach- 
wiedergabe weiterhin folgendes umfaBt: 

einen Prozessor (307) zur Spracherkennung; und 

einen mit dem Prozessor (307) zur Spracherkennung 40 

gekoppelten Untertitelkodierer (311). 
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